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Beschreibung 



Verfahren und Vorrichtungen zum Encodieren/Decodieren von 
stmkturierten Dokumenten, insbesondere von XML-Dokumenten 

5 

Die Erfindung betrifft Verfahren bzw. Vorrichtungen zum 
Encodieren von stmkturierten Dokumenten, insbesondere XML- 
Dokumenten, bei denen aus einem stmkturierten Dokument in 
Abhangigkeit eines Schemas ein Bitstrom erzeugt wird und ein 
10 Verfahren bzw. eine Vorrichtung zum Decodieren, bei denen aus 
einem Bitstrom in Abhangigkeit eines Schemas ein 
strukturiertes Dokument erzeugt wird. 

Im Rahmen der Arbeit am MPEG-7 Standard wurde ein Verfahren 
15 zur binaren Codierung von XML Daten entwickelt, das im 

folgenden BiM-Verf ahren genannt wird und beispielsweise aus 
der Verof fentlichung ISO/IEC FDIS 15938-1 : 2001 (E) , 
* Information Technology - Multimedia Content Description 
Interface - Part 1: Systems* bekannt ist. Dieses Verfahren 
20 .verwendet XML Schema Def initionen, die beim Encoder und 

Decoder vorliegen, beispielsweise das MPEG-7 Schema, urn die 
Codes fur die einzelnen Datenelemente der XML Beschreibung zu 
generieren. Dieses Verfahren setzt voraus, dass dem Encoder 

•und dem Decoder zumindest teilweise die selben 
Schemadef initionen vorliegen. Dies kann beispielsweise 
gewahrleistet werden, indem ein standardisiertes XML Schema 
im Decoder fest eingebaut wird. Ausserdem besteht die 
Moglichkeit das Schema separat oder zusatzlich zum 
eigentlichen Dokument dem Decoder zu ubermitteln. Die 
3 0 Ubertragung des Schemas vom Encoder zum Decoder kann in 
textueller Form durchgefiihrt werden, wobei eine Standard 
Textkompression, wie z.B. ZIP, angewendet werden kann. 

Die der Erfindung zu Grunde liegende Aufgabe besteht nun 
3 5 darin, Verfahren bzw. Vorrichtungen der art anzugeben, dass 
die Ubertragung des Schemas besonders effizient erfolgt und 
dass die ubertragene Datenmenge und die Rechenlei stung am 
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Decoder, die fur die Erzeugung der Codetabellen aus dem 
Schema nStig ist, reduziert wird. AuSerdem soli die 
Konsistenz eines nicht vollstandig ubertragenen Schemas 
sichergestellt werden. 

5 Diese Aufgabe wird hinsichtlich des Encodierverf ahrens durch 
die Merkmale des Patentanspruchs 1, hinsichtlich des 
Decodierverfahrens durch die Merkmale des Patentanspruchs 6 , 
hinsichtlich der Encodiervorrichtung durch die Merkmale des 
10 Patentanspruchs 12 und hinsichtlich der Decodiervorrichtung 
durch die Merkmale des Patentanspruchs 13 erf indungsgemaS 
gelost . 

Die weiteren Anspriiche betref fen vorteilhaf te Ausgestaltungen 
15 der erfindungsgemaSen Verfahren bzw. Vorrichtungen. 

Die Erfindung besteht im wesentlichen darin, mit einem 
Encodierverfahren aus einem Schema in Abhangigkeit eines 
Metaschemas einen Bitstrom oder einen Teil eines Bitstromes 

2 0 -zu erzeugen, wobei eine oder mehrere der folgenden 

Optimierungen durchgefuhrt werden: 

- Abspaltung von anonymous Types aus Elementdeklarationen und 
Attributdeklarationen, und Codierung als eigener Typ, dessen 
Typdefinition als Top-Level Element in der Schema Definition 

25 instantiiert ist, 

- Normalisierung der Syntax Trees auf Encoderseite, 

- Ersetzung der Zeichenketten von Typnamen 

- tibertragung von Inf ormationen fiir den Vererbungsbaum. 
Die Dekodierung beriicksichtigt diese Optimierungen und 

3 0 erzeugt umgekehrt aus dem Bitstrom ein Schema. 

Die Erfindung wird nachfolgend anhand von in den Zeichnungen 
dargestellten Ausfiihrungsbeispielen erlautert. Dabei zeigt 



35 Figur 1 eine Prinzipdarstellung zu Erlauterung der 
erf indungsgemaSen Encodierung/Decodierung , 
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Figur 2 eine Darstellung zur Erlauterung der Details einer 
bevorzugten Ausfuhrungsf orm der Erfindung, 

Figur 3 eine Darstellung zur Erlauterung der Details einer 
weiteren bevorzugten Ausfuhrungsf orm der Erfindung 
und 

Figur 4 eine Prinzipdarstellung einer bevorzugten 

Ausfuhrungsf orm eines erf indungsgemaSen Decoders. 

Da XML Schemas ihrerseits XML Dokumente sind, denen eine 
standardisierte Syntaxdef inition zugrunde liegt, namlich ein 
sogenanntes "Schema for Schemas" (W3C Spezif ikation) , das 
quasi ein Metaschema darstellt, kann ein Schema ebenfalls mit 
dem oben genannten BiM-Verf ahren codiert und ubertragen 
werden . 

In Figur 1 ist eine Anordnung gezeigt, bei der, in einem 
ersten Schritt, mit einem BiM-Encodierverfahren BiM-E aus 
•einem XML-Schema XMLS in Abhangigkeit eines Metaschemas SS 
einen Teil eines Bitstromes oder einen Bitstrom BS1 erzeugt 
wird und bei der, in einem zweiten Schritt, mit dem selben 
BiM-Encodierverfahren BiM-E aus einem XML-Dokument XML in 
Abhangigkeit des Schemas XMLS ein weiterer Teil des 
Bitstromes oder ein Bitstrom BS2 erzeugt wird sowie in 
umgekehrter Richtung mit einem BiM-Decodierverf ahren BiM-D 
aus den beiden Teile des Bitstromes oder aus den Bitstromen 
BS1 und BS 2 ein XML Schema und das XML-Dokument 
wiedergewonnen werden. 

In einer ersten bevorzugten Ausgestaltung der Erfindung wird 
eine Abspaltung von sogenannten „ anonymous Types" aus der 
Element- bzw. Attributdeklaration vorgenommen. 

Die Ubertragung eines XML Dokuments erfolgt beim BiM- 
Verf ahren "depth first", der Vorgang der Schema Kompilierung 
am Decoder verlangt aber einen Aufbau "breadth first", wobei 
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die diese Ausdrucke bspw. auf der Internetseite 
ht tp : / /www . generations • org/ simple_search . shtml naher 
erlautert sind. Bei Gruppen wie Sequence oder Choice kann 
dies durch einen kleinen Zwischenspeicher auf Decoderseite 
ausgeglichen werden, aber bei den "anonymous Types" , die den 
Typ eines einzelnen Elements oder Attributs def inieren konnen 
rechtf ertigt der Aufwand eine Umstrukturierung auf 
Encoderseite: die anonymous Type Def initionen, im 
nachf olgenden Beispiel mit ATO bezeichnet, werden aus der 
Elementdeklaration des Elements " CurriculumVitae" 
herausgelost und erhalten einen Namen und/oder Code, der zur 
Ref erenzierung bei dem entsprechenden Element verwendet wird. 
Vorteilhafterweise wird hierdurch die Tiefe der Hierarchie 
der tiber tragenen Typen reduziert, wodurch die Kompilierung 
des Schemas auf der Decoderseite vereinfacht wird. 

Beispiel : 

Schema vor der Umstrukturierung 

<complexType name= * PersonDescr iptor " > 
<element name= /f CurriculiimVitae'^ 
<complexType> 

<element name =" name" type= "string ,# /> 
<element name= "birthday" type="date // /> 

< / c omp 1 exTyp e > 
</ element > 

<element name="prof ession" type="prof Tp" /> 
< / c omp 1 exTyp e > 

Schema nach der Umstrukturierung 

<complexType name= " PersonDescriptor " > 

<element name="CurriculumVitae" type="AT0"/> 
<element name="prof ession" type="prof Tp" /> 
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< / compl exType> 

<complexType name="AT0"> 

<element name = " name * type=" string" /> 
<element name= // birthday" type="date" /> 
• • • 

< / c ompl exType> 




10 in einer zweiten bevorzugten Ausgestaltung der Erfindung wird 
die Normalisierung der Syntax Trees, wie sie in BiM 
spezifiziert ist, auf der Encoderseite durchgef uhrt . 

im BiM-Verfahren werden sogenannte „Finite State Automatons- 
die zur Dekodierung des Bitstroms verwendet werden aus Syntax 
Trees erzeugt, welche die Struktur des XML Schemas abbilden 
Um die Codiereffizienz zu steigem entsprechen diese Syntax 
Trees nicht 1:1 den textuellen XML Def initionen, sondem es 
werden Normalisierungen vorgenommen. Drei verschiedene Falle 
•kSnnen hierbei auftreten: 

1. Vereinfachung einer Gruppe, die nur ein Element enthalt- 
Die Gruppe wird aufgelost, und das enthaltene Element wird 
auf der Ebene der aufgel6sten Gruppe in das Content Modell 
emsortiert, wobei die Attribute minOccurs und maxOccurs des 
Elements durch das Produkt der entsprechenden Attribute der 
aufgelSsten Gruppe und des Elements vor der Umgruppierung 
ersetzt wird. 

2 Vereinfachung einer choice-Gruppe, die ein Element mit dem 
Attributwert minOccurs=0 enthalt: 

Das Attribut .minOccurs" der choice Gruppe wird unabhangig 
vom vorhergehenden Wert auf 0 gesetzt, das Element, das einen 
Attributwert minOccurs=0 hatte, wird einen Attributwert 
mmOccurs=l zugewiesen. 
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3. Vereinfachung von verschachtelten choice-Gruppen : 
Enthalt eine choice Gruppe eine andere choice Gruppe, die die 
Attributwerte minOccurs=*maxOccurs=l enthalt, so wird diese 
choice Gruppe aufgelSst, und der Inhalt direkt der 
dariiberliegenden choice Gruppe eingegliedert . 

Diese Vereinfachungen sollten bei der Ubertragung des Schemas 
schon am Encoder vorgenommen werden, da die Syntax Tree 
Transformationen die Vergabe der normativen Codes 
beeinflusst, und die Kompilierung des Schemas auf 
Decoderseite vereinfacht wird, wenn das Content-Model 1 direkt 
ubernommen werden kann. 

Die Vorteile liegen hier darin, dass hierdurch ebenfalls der 
Decoder entlastet wird und das Content-Modell direkt wie es 
bei der Typdecodierung entsteht dem Schema-Compiler zugefuhrt 
werden kann. 




.In einer dritten bevorzugten Ausgestaltung der Erfindung 
wird, 

wie in Figur 2 gezeigt, eine Ersetzung der Zeichenketten von 
Typnamen durchgef iihrt . 

Im Attribut "name" und "base" einer Typdef inition, sowie beim 
Attribut "type" einer Element- Oder Attributdeklaration 
treten haufig im Schema die selben Typnamen auf, die als 
Zeichenkette mehrfach iibertragen werden wurden. Bei der 
Codierung von Typnamen ist es deshalb vorteilhaft anstatt des 
Namens nur eine Nummer zu codieren, und separat dazu eine 
Tabelle, welche die Nummern wieder zu den ursprunglichen 
Namen in Beziehung setzt. Als Nummer bietet sich die 
Typnummer an, die der unten noch naher erlauterte 
Vererbungsbaum des Ur-Typs alien complexTypes zuordnet . 




Entsprechendes gilt auch fur das Attribut „name" von globalen 
Element-Deklarationen und deren Referenzen in „ref"- 
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Attributen und fur den Namen von Ersetzungsgruppen im 
Attribut "substitutionGroup" . in diesen Fallen kann 
beispielsweise der Schemaverzweigungscode SBC der globalen 
El entente verwendet werden. 

Hiermit kann Datenvolumen eingespart werden, da eine 
wiederholte Ref erenzierung auf den selben Typnamen kompakte; 
dargestellt werden kann und die Typzuordnungstabelle mit 
einem Standardkompressor besser komprimiert werden kann, da 
die Typnamen nicht iiber den Bitstrom verteilt auftreten, 
sondern kompakt in einem zusammenhangenden Bereich im 
Bitstrom. 



In einer vierten bevorzugten Ausgestaltung der Erfindung 
erfolgt eine ubertragung von Inf ormationen fur den 
Vererbungsbaum . 

Jede Typdefinition enthalt im sogenannten Attribut "base", 
.falls es vorhanden ist, die Information von welchem Typ er 
vererbt worden ist. Wenn alle diese Inf ormationen fur ein 
Schema gesammelt. werden, ergibt sich eine Baumstruktur , der 
sogenannte Vererbungsbaum. Der Vererbungsbaum wird beim BiM- 
Codierungsverfahren verwendet, urn im Falle einer Typumandlung 
(type-cast) den neuen Typ des Elements zu iibermitteln. Dabei 
ist der Code der alien vom Basistyp vererbten Typen 
zugeordnet wird, also der sogenannte Type Code, sowie die 
Lange dieses Codes fur eine korrekte Dekodierung 
entscheidend. Die Lange ergibt sich aus der Gesamtzahl aller 
Typen im Vererbungsbaum unter dem Basistyp. Wenn das Schema 
vollstandig tibertragen wurde lassen sich sowohl die Codes als 
auch die Codelange auf der Decoderseite eindeutig ermitteln. 
Wenn aber das Schema auf der Decoderseite nicht vollstandig 
ist, muss noch Zusatzinf ormation tibertragen werden, urn 
bereits ubertragenen Typen Type Codes zuzuweisen. 
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jeder ubertragene Typ hat im Namensfeld die Nummer des 
Typecode bezogen auf den Urtyp. Damit lasst sich der Typecode 
der abgeleiteten Typen durch einfache Dif f erenzbildung 
ermitteln. Es fehlt noch die Information tiber die Machtigkeit 
des durch den iibertragenen Typen definierten Unterbaums, und 
damit die Lange der Typecodes der von diesem ubertragenen 
Typen abgeleiteten Typen. Diese Lange lasst sich mit wenigen 
Bits in einem variablen Langencode ubertragen. 

In Figur 3 ist beispielhaft ein Vererbungsbaum eines Schemas 
mit dem Typ A, von dem weitere Typen abgeleited sind, 
dargestellt. Dieser Typ bekommt beziiglich des Urtyps 
"anyType" beispielsweise den Typecode 134. Von Typ A sind die 
Typen AA, AB und AC abgeleitet, deren Typecodes beziiglich des 
Urtyps angegeben sind. Urn den Typecode beziiglich des 
Basistyps A zu ermitteln, geniigt es vom Typecode des 
gewunschten Typs den Typecode des Basistyps und eins zu 
subtrahieren : 

•TC Type- Type bzgl . Urtyp~TC Basistyp bzgl. Urtyp ~1 

Die fehlende Information iiber die Lange des Typecodes laSt 
sich am besten in der Ref erenztabelle als zusatzliche Zahl 
integrieren . 

Urn die Information in der Typzuordnungstabelle mit einem 
Standardkompressor komprimieren zu konnen empfiehlt es sich, 
sie auf ganze Bytes ausgerichtet abzulegen (bytealigned) . Die 
erste Zahl ist eine vluimsbf5 Zahl, die die Zahl der Zeilen 
in der Tabelle codiert, dann folgt eine vluimsbf5 Zahl, die 
die Nummer an Bits fiir den Typecode codiert, und eine weitere 
vluimsbfS Zahl, die den Typecode bzgl. des Urtyps selbst 
dar stellt. Es folgen Fullbits oder Stuffing Bits urn die 
Ausrichtung auf Bytegrenzen zu erreichen. 
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Format der Typzuordnunastabelle 
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Die Ubertragung einer Typzuordnungstabelle ermoglicht es, die 
in einem kodierten Dokument evtl . vorhandenen Typecodes 
korrekt zu decodieren, auch wenn das zugrundeliegende Schema 
nicht oder noch nicht vollstandig ubertragen und/oder 
decodiert wurde. 

Entsprechend sind mit globalen Elementen der globale SBC und 
bei Elementen, die zu einer Ersetzungsgruppe gehoren, der 
Ersetzungscode zu iibermitteln, wobei vorab fur alle globalen 
Elemente einmal die globale SBC-Lange und mit dem Kopfelement 
der Ersetzungsgruppe die Lange des jeweiligen Ersetzungscodes 
ubermittelt werden. 

Es ist jede Kombination der in den einzelnen Ausgestaltungen 
dargestellten Merkmale bei der Encodierung moglich und kann 
in entsprechender Weise auch bei der Decodierung Eingang 
f inden . 

Das BiM-Verfahren erfordert es, dass das XML-Schema in ein 
Format kompiliert wird, das die Bestimmung der Lange der 
Codeworte und die Auswahl der Datenelemente durch die Werte 
der Codes gestattet. Dafur gibt es mehrere Moglichkeiten . Im 
MPEG-7 Standard (ISO/IEC 15938-1:2001 Parti: Systems bzw 
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ISO/IEC 15938-6:2001 Part6 : Ref erenzsof tware) ist fur die 
Decodierung der Nutzlast bzw. Payload ein Modell 
vorgeschlagen, das Endliche Zustandsautomaten (Finite State 
Automatons) verwendet, und fiir die Decodierung eines Context 
Pfades Codetabellen, die aus dem Schema generiert werden. 

in einer in Figur 4 dargestellten bevorzugten Ausgestaltung 
des erfindungsgemafien Decoders wird der Decodiervorgang mit 
einem Bytecodemodell beschrieben, wobei die Schemastruktur in 
ein System aus vernetzten Zustanden ubersetzt wird, die von 
einem Bytecodeinterpreter BCI abgearbeitet werden, wobei ein 
vom Encoder empfangener Bitstrom BS die Information iiber den 
auszuwahlenden Folgezustand enthalt. Im Unterschied zu dem 
Modell, das im MPEG-7 Standard vorgeschlagen wird, ist das 
Bytecodemodell so angelegt, dass sowohl ein Bitstrom, der 
eine Payload reprasentiert , als auch ein Bitstrom der einen 
Context Pfad darstellt decodiert werden kann. Es ist deshalb 
nicht erforderlich dieselbe Information, die im Schema 
enthalten ist zweimal fur die verschiedenen Codierverf ahren 
.am Decoder vorzuhalten. Der Interpreter BCI liest die 
Information aus dem Eingangsbitstrom, die ein XML Dokument 
Oder ein XML Schema im BiM Format codiert. Diese Information 
erlaubt die Auswahl unter den Folgezustanden des aktuellen 
Zustandes, der im Bytecode abgelegt ist. Die Folgezustande 
sind innerhalb des Bytecodes als Pointer P fest angelegt. Je 
nach Konfiguration wird ein Pfad, eine Payload oder ein 
Bytecode ausgegeben. 

Die Decodierung eines Schemas lafit sich mit den oben 
vorgeschlagenen Modif ikationen ebenfalls effizient im 
Bytecodemodell realisieren. In diesem Fall wird keine Payload 
und kein Pfad ausgegeben, sondern direkt Bytecode erzeugt, 
der vom Bytecodeinterpreter fiir die Decodierung der 
entsprechenden Typen verwendet werden kann. 



Der Bytecode setzt sich aus Strukturelementen bzw. den 
Zustanden zusammen. Die Zustande sind von verschiedenem Typ, 
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der mit dem Headerbitf eld des Zustandes identif iziert wird. 
Die Zustande enthalten abhangig vom Typ verschiedene 
Informationsf elder, die vom Bytecodeinterpreter gelesen, und 
je nach Konf iguration (Payload/ Context Pfad) und aktuellem 
Zustand ausgewertet werden . 

Fur die Arten von Zustanden, welche die Schemainf ormation 
reprasentieren sind mehrere Varianten denkbar. Wesentlich 
1st, dass sich durch die Zustande des Bytecodemodells alle 
Syntaxelemente eines XML Schemas nachbildert lassen, und dass 
die gesamte Information, die zur effizienten Decodierung der 
beiden im MPEG-7 Standard definierten Algorithmen (Context 
Pfad/Payload) notwendig ist, in den Zustanden zur Verfugung 
gestellt wird. 

Ein mSglicher Aufbau des Bytecodes wird im folgenden kurz 
dargestellt. 



Arten von Zustanden, Ubersicht: 
•1. Kopf zustand eines complexTyps 

Der Kopfzustand eines Typs bildet den Einsprungspunkt bei der 
Decodierung eines complexType. Er en thai t den Namen des Typs 
(falls essich nicht urn einen anonymen Typ handelt) sowie 
Information zu Vererbung des Typs (Zeiger auf Basiszustand) 
sowie Polymorphismus . 

Spezifisch fur die Payloadcodierung ist ein Zeiger auf eine 
Liste der Attribute des Typs. Spezifisch fur die Context Pfad 
Codxerung sind Felder mit der Zahl der Kindelemente fur die ■ 
Context - und Operand Tree Branch Code Tabellen. 
Das letzte Informationsf eld ist ein Zeiger auf den 
Folgezustand, d.h. der erste Zustand, der den Inhalt des 
complexTypes reprasentiert (beispielsweise ein Elementzustand 
Oder ein Auswahlzustand) . 
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Graphische Darstellung eines Kopfzustands 



Headerbitfeld 



Pointer auf String rait Name 



Pointer auf Kopfzust. Basistyp 



Pointer auf Vererbungsbaum 



Zahl der Kinder Context TBC 



Zahl der Kinder Operand TBC 



Pointer auf Folgezustand 



2. Auswahlzustand 

Ein Auswahlzustand bildet eine choice Gruppe des XML Schemas 
nach. Der Auswahlzustand enthalt im wesentlichen eine 
Pointerliste mit mSglichen Folgezustanden. Um den tatsachlich 
ausgewahlten Zustand zu bestimmen muS bei der Decodierung 
einer Payload der Bitstrom gelesen werden. Vom Auswahlzustand 
gibt es zwei Varianten: einen Start zustand, der in die 
verschiedenen moglichen Folgezustande verzweigt, sowie einen 
•Endzustand, der die Auswahl wieder zusammenf a&t . 



3 . Element zustand 

Der Elementzustand bildet eine Elementdeklaration in einem 
complexType eines Schemas nach. Er enthalt einen Pointer auf 
eine Zeichenkette mit dem Namen des Elements, sowie einen 
Pointer auf den Kopf zustand des Typs . Ferner ist evtl. 
Information iiber die Lange des Position Codes (nur fur Pfad- 
Decodierung) und fur Substitution Groups vorhanden. 

4 . Attributzustand 

Ein Attributzustand bildet eine Attributdeklaration eines 
Schemas nach. Enthalten sind ein Pointer auf den Namen des 
Attributs, sowie ein Pointer auf den Kopf zustand des 
simpleType des Attributs. 
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5. Occurrencezustand 

Ein Occurrencezustand bildet die minOccurs und maxOccurs 
Attribute nach, die bei einem XML Schema z.B. bei einem 
Element oder einer Gruppe (choice, sequence, ...) auftreten 
konnen. Er enthalt einen Zeiger auf den Folgezustand, falls 
eine weitere Instanz des Elements oder der Gruppe auftritt, 
sowie einen Zeiger auf den Folgezustand, falls die letzte 
Instanz der Gruppe codiert wurde. Da bei XML Schemas die 
Moglichkeit besteht, dag ein Element sich selbst enthalt (in 
der complexType Definition des Elements, oder in einer noch 
tieferen Verschachtelung tritt das Element selbst wieder auf) 
kann auch ein Occurrencezustand gleichzei.tig mehr als einmal 
aktiv sein. Deshalb ist ein Zeiger auf einen Stapel innerhalb 
des Occurrencezustands erf orderlich, die den aktuellen 
Zustand jeder aktiven Instanz des Occurrencezustands sichert. 

6. Endzustand eines Typs 

Der Endzustand eines Typs enthalt eine Zeigerliste mit alien 
Attrxbuten dieses Typs. Sie ist bei der Decodierung eines 
•Pfades erf orderlich, da in den Tree Branch Code Tabellen . alle 
Attribute am Ende der Tabelle einsortiert werden. Beim 
erreichen eines Endzustands verzweigt der Bytecodeinterpreter 
hxerarchisch in das Element, das diesen Typ aufgerufen hat. 
Die entsprechende Information viber das aufrufende Element mu* 
im Arbeitsspeicher des Bytecodeinterpreters abgelegt sein. 

7 . Kopf zustand eines simpleTypes 

Dieser Zustand steuert die Decodierung von Inhalt, d h er 
enthalt einen Pointer auf einen Codec, der spezifisch Daten 
des betreffenden Typs aus dem Bitstrom lesen und decodieren 
kann. Der Typ des Codecs ist in einem Inf ormationsf eld 
spezif iziert . 



Die wesentlichen Vorteile des Bytecodemodells im Vergleich 
35 zum Stand der MPEG-7 Ref erenzsof tware sind: 
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1 Die Schemainformation wird fur beide Codierverfahren 
(Context Pfad / Payload) nur einmal am Decoder reprasentiert . 
Der grSfite Teil der Information in den Bytecodezustanden smd 
far beide Verfahren relevant. Ein kleinerer Teil ist 
5 spezifisch fur jeweils eines der beiden Verfahren. Deshalb 
ist die Darstellung der Schemainformation am Decoder sehr 
kompakt . 

2. Das Bytecodemodell stellt ein wohldef iniertes Datenformat 
10 fur schemainformation zur Verfugung, das sich z.B. auch zum 

Vorkompilieren und Abspeichern eignet (anstatt dem XML-Schema 
als Text) . 

3. Die Ausfuhrung des Bytecodes durch einen Standardprozessor 
15 kann sehr schnell erfolgen, da das Bytecodemodell den 

Decodiervorgang sehr gut vorbereitet. Alle Information ist 
direkt im Zustand uber Zeiger verfiigbar, und mufi nicht (wie 
in ISO/IEC 15938-6, Part 6: Ref erenzsof tware) zum Teil erst 
in Listen gesucht werden. 

20 Ein entsprechender Encoder kann auf die selbe Art und Weise 

realisiert werden, wobei er in der Weise invers ist, als dass 
die Zustande von der textuellen Representation des 
strukturierten Dokuments gesteuert werden und die 

.25 zustandsubergange die binare Representation generieren. 
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Patentanspruche 




1. Verfahren zum Encodieren von strukturierten Dokumenten, 
insbesondere XML-Dokumenten, 

bei dem, in einem ersten Schritt, die Struktur des Schemas 
(XMLS) normiert wird, wobei Gruppen mit Elementen und/oder 
Attributen vereinfacht werden, 

bei dem mit einem Encodierverf ahren (BiM-E) aus dem 
normierten Schema in Abhangigkeit eines Metaschemas (SS) ein 
Teil eines Bitstromes oder ein Bitstrom (BS1) erzeugt wird. 

2 . Verfahren nach Anspruch 1 , 

bei dem, in einem' weiter en Schritt, mit dem selben 
Encodierverf ahren (BiM-E) aus einem Dokument (XML) in 
Abhangigkeit des Schema (XMLS) ein weiterer Teil des 
Bitstromes oder ein weiterer Bitstrom (BS2) erzeugt wird. 

3. Verfahren nach Anspruch 1 oder 2, 

bei dem Elementdeklarationen und/oder Attributdeklarationen 
der Schemadefinition eines strukturierten Dokuments derart 
umstrukturiert werden, dass anonyme Typdef initionen (ATO) aus 
den Elementdeklarationen und/oder Attributdeklarationen 
herausgelost werden und einen Namen und/oder Code erhalten, 
der zur Ref erenzierung bei dem entsprechenden Element 
verwendet wird. 

4. Verfahren nach einem der Anspruche 1 bis 3, 

bei dem anstatt Typnamen und/oder Elementnamen und/oder Namen 
von Ersetzungsgruppen nur Nummern sowie eine oder mehrere 
Tabellen mit einer Zuordnung zwischen Nummern und Typnamen 
und/oder Elementnamen und/oder Namen von Ersetzungsgruppen 
codiert wird. 

35 5. Verfahren nach einem der vorhergehenden Anspruche, 
bei dem Inf ormationen fur den Vererbungsbaum von Typen 
globalen Elementen und/oder Ersetzungsgruppen codiert werden, 



30 
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wobei jeder Typ durch eine Information ttber seinen Typcode 
bezogen auf den Urtyp und der Lange aller Typcodes, die sich 
auf den beschriebenen Typen beziehen, beschrieben wird 
und/oder jedes globale Element durch die Lange des SBC und 
5 einen SBC und/oder jedes Element in einer Ersetzungsgruppe 
durch die Lange der Ersetzungscodes und einen Ersetzungscode 
beschrieben wird. 

6 . verf ahren zum Decodieren von strukturierten Dokumenten, 
10 insbesondere XML -Dokumenten, 

bei dem, mit einem Decodierverf ahren (BiM-D) aus einem Teil 
eines Bitstromes oder aus einem Bitstrom (BSD in 
Abhangigkeit eines Metaschemas- (SS) ein Schema (XMLS) erzeugt 

wird, 

15 bei dem im Bitstrom festgestellt wird, ob die Struktur des 
Schemas bereits normiert wurde, wobei Gruppen mit Elementen 
und/oder Attributen vereinfacht wurden, und fur diesen Fall 
keine Normierung durchgefuhrt wird und 



20 .7. Verf ahren nach Anspruch 6, 

bei dem, in einem zweiten Schritt, mit dem selben 
Decodierverfahren (BiM-D) aus einem weiteren Teil des 
Bitstromes oder einem weiteren Bitstrom (BS2) in Abhangigkeit 
des Schema (XMLS) ein Dokument (XML) erzeugt wird. 

25 

8 . Verf ahren nach Anspruch 6 , 

bei dem, wahrend der Decodierung des Schemas (XMLS) , mit dem 
selben Decodierverfahren (BiM-D) aus einem weiteren Teil des 
Bitstromes oder einen weiteren Bitstrom (BS2) in Abhangigkeit 
30 des bereits decodierten Teils des Schemas (XMLS) ein Dokument 
(XML) erzeugt wird. 

9. Verf ahren nach einem der Anspruche 6 bis 8, 

bei dem Elementdeklarationen und/oder Attributdeklarationen 
35 eines strukturierten Dokuments derart umstrukturiert werden, 
dass anonyme Typen (AT0) , denen zur Ubertragung ein Name 
und/oder ein Code zugewiesen wurde, in die jeweilige 
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Elementdeklaration oder Attributdeklaration eingefugt werden, 
von der der jeweilige anonyme Typ referenziert wird. 

10. Verfahren nach einem der Anspriiche 6 bis 9, 
bei dem aus dem Bitstrom Typnamen und/oder Elementnamen 
und/oder Namen von Ersetzungsgruppen iiber Nummern sowie einer 
Oder mehrer Tabellen mit einer Zuordnung zwischen Nummern und 
Typnamen und/oder Elementnamen und/oder Namen von 
Ersetzungsgruppen decodiert werden. 

11. Verfahren nach einem der Anspriiche 6 bis 10, 
bei dem zunachst aus dem Bitstrom inf ormationen' far einen 
Vererbungsbaum von Typen und/oder globalen Elementen und/oder 
Ersetzungsgruppen decodiert werden, wobei jeder Typ durch 
eine Information iiber seinen Typcode bezogen auf den Urtyp 
und der Lange aller Typcodes, die sich auf den beschriebenen 
Typen beziehen, beschrieben wird 

und/oder jedes globale Element durch die Lange des SBC und 
einen SBC und/oder jedes Element in einer Ersetzungsgruppe 
■durch die Lange der Ersetzungscodes und einen Ersetzungscode 
beschrieben wird. 

12. Vorrichtung zum Encodieren von strukturierten Dokumenten 

msbesondere XML -Dokumenten, 

bei der eine Encodiereinheit vorhanden' ist, 

die, in einem ersten Schritt, die Struktur des Schemas (XMLS) 
norrmeren, wobei Gruppen mit Elementen und/oder Attributen 
vereinfacht werden, 

die aus dem normierten Schema in Abhangigkeit eines 
Metaschemas ( SS ) einen Tail eines Bitstromes oder einen 
Bitstrom (BS1) erzeugen. 

13 Vorrichtung zum Decodieren von strukturierten Dokumenten 

msbesondere XML-Dokumenten, 

bei der eine Decodiereinheit vorhanden ist, 
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die, aus einem Teil eines Bitstromes oder aus einem Bitstrom 
(BS1) in Abhangigkeit eines Metaschemas (SS) ein Schema 
erzeugt , 

bei der im Bitstrom festgestellt wird, ob die Struktur des 
Schemas (XMLS) bereits normiert wurden, wobei Gruppen mit 
Elementen und/oder Attributen vereinfacht wurden, und fiir 
diesen Fall keine Normierung durchgefiihrt wird. 

14. Vorrichtung nach Anspruch 12, 

bei der die Encodiereinheit einen konf igurierbaren 
Bytecodeinterpreter aufweist, der Inf ormationen in einem 
Bytecode interpretiert und der, abhangig von der 
Konfigurierung, aus dem strukturierten Dokument basierend auf 
einem Bytecode einen Code erzeugt, der einen Pfad oder eine 
Nutzlast reprasentiert . 

15 . Vorrichtung nach Anspruch 13 , 

bei der die Decodiereinheit einen konf igurierbaren 
Bytecodeinterpreter aufweist, der durch Inf ormationen aus dem 
.Bitstrom konfigurierbar ist und der, abhangig von der 
Konfigurierung, aus dem Bitstrom basierend auf einem Bytecode 
einen Pfad, eine Nutzlast oder einen Bytecode erzeugt. 
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Zusainmenf as sung 



Verfahren und Vorrichtungen zum Encodieren/Decodieren von 
strukturierten Dokumenten, insbesondere von XML-Dokumenten 

Die Erfindung besteht im wesentlichen darin, mit einem 
Encodierverfahren aus einem Schema in Abhangigkeit eines 
Metaschemas einen Bitstrom oder einen Teil eines B*tstromes 
zu erzeugen, wobei eine oder mehrere der folgenden* 
Optimierungen durchgefuhrt werden: 

- Abspaltung von anonymous Types aus Elementdeklarationen und 
Attributdeklarationen, und Codierung als eigener Typ, dessen 
Typdefinition als Top-Level Element in der Schema Definition 
instantiiert ist, 

- Normalisierung der Syntax Trees auf Encoderseite, 

- Ersetzung der Zeichenketten von Typnamen 

- Obertragung von Inf ormationen fur den Vererbungsbaum. 
Die Dekodierung beriicksichtigt diese Optimierungen und 
erzeugt umgekehrt aus dem Bitstrom ein Schema. 



XML Schema 
Dokument 




XML 
Dokument 



<complexType name="42"> 
<element type-' 15"/> 
<element type="6'7> 
<attribute type="72'7> 

<complexType/> 

<complexType name="13"> 
<element type="42'7> 
<element type="6'7> 
<attribute type="14'7> 

<complexType/> 



Typ- 
nummer 


Typname 


42 


PersonDescriptorType 


15 


ContactType 


6 


CurriculiunVitaeType 


72 


NameType 









Konfiguration fur 

• Pfad 

• Payload Decodierter Pfad / 
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